from openai import OpenAI

# 配置 OpenAI API 密钥和 Base URL 以连接 vLLM 服务
openai_api_key = "EMPTY"  # vLLM 服务不需要 API 密钥，可以使用任意字符串
openai_api_base = "http://localhost:8102/v1"  # 请确保端口号与您启动 vLLM 服务时设置的端口号一致

client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)

# prompt = "唐朝的第一任皇帝是谁？"  # 您想要模型回答的问题
#
# response = client.completions.create(
#     model="/data/model/models/ZhipuAI/chatglm3-6b",  # 请确保模型名称与您下载的模型一致
#     prompt=prompt,
#     max_tokens=500,
#     stream=False  # 设置为 False 表示不使用流式输出
# )
#
# print(response.choices[0].text)  # 输出模型的回答内容

# 使用一个循环监听键盘输入调用模型 增加历史对话记录

while True:
    prompt = input("请输入问题：")
    response = client.completions.create(
        model="/data/model/models/ZhipuAI/chatglm3-6b",
        prompt=prompt,
        max_tokens=500,
        stream=False
    )
    print(response.choices[0].text)